J^e 000I ai 
BUNDESREPUBLIK DEUTSCHLAND U5 




o 



CO; 



u 



=0 



Prioritatsbescheinigung uber die Einreichung 
einer Patentanmeldung 



Aktenzeichen: 

Anmeldetag: 

Anmelder/lnhaber: 



100 40 063.9 



16. August 2000 



Philips Corporate Intellectual Property GmbH, 
Hamburg/DE 



Bezeichnung: 
IPC: 



Verfahren zur Zuordnung von Phonemen 



G 10 L 15/00 



0 



Die angehefteten Stucke sind eine richtige und genaue Wiedergabe der ur- 
sprunglichen Unterlagen dieser Patentanmeldung. 



Munchen, den 20. April 2001 
Deutsches Patent- und Markenamt 
Der Prasident 

Im Auftrag 




A 9161 

06/00 
EDV-L 



PHDE000121 




BESCHREIBUNG 



Verfahren zur Zuordnung von Phonemen 

Die Erfindung betrifft ein Verfahren zur Zuordnung von Phonemen einer Zielsprache zu 
jeweils einer Ausgangs-Phonemeinheit eines Sets von Ausgangs-Phonemeinheiten, welche 
jeweils durch Ausgangs-Phonemmodelle beschrieben werden, die unter Verwendung vor- 
handener Sprachdaten einer Ausgangssprache erzeugt warden. Dariiber hinaus betrifft die 
Erfindung ein Verfahren zur Erzeugung von Phonemnnodellen fiir Phoneme einer Ziel- 
sprache, ein Set von Unguistischen Modellen zur Verwendung in automatischen Spracher- 
kennungssystemen sowie ein Spracherkennungssystem/ enthalterid ein entsprechendes Set 



10 von akustisch en Modellen. 

Spracherkennungssysteme arbeiten in der Regel in der Weise, dass zunachst das Sprach- 
signal in einer Merkmalsanalyseeinheit spelctral oder zeitlich analysiert wird. In dieser 
Merkmalsanalyseeinheit werden die Sprachsignale ublicherweise in Abschnitte, sogenannte 
15 „Fenster" (Frames), aufgeteilt. Diese Fenster werden dann fiir die weitere Analyse in geeig- 
neter Form codiert und digital is iert. Ein beobachtetes Signal kann dabei durch mehrere 
verschiedene Parameter, bzw. in einem mehrdimensionalen Parameterraum durch einen 
sogenannten „Beobachtungsvektor", beschrieben werden. Die eigentliche Spracherken- 
nung, d. h. die Erkennung des Bedeutungsinhalts des Sprachsignals, erfolgt dann dadurch, 
20 dass die durch die Beobachtungsvektoren beschriebenen Abschnitte des Sprachsignals, bzw. 
eine ganze Sequenz von Beobachtungsvektoren, mit Modellen von verschiedenen, sinnvoll 
moglichen Sequenzen von Beobachtungen verglichen wird und somit ein Modell heraus- 
gesucht wird, welches am besten zu dem aufgetretenen Beobachtungsvektor, bzw. der 
Sequenz passt. Das Spracherkennungssystem muss hierzu eine Art Bibliothek von den 
25 verschiedensten moglichen Signalfolgen aufweisen, aus denen das Spracherkennungssystem 
dann die jeweils passende Signalfolge ausw^len kann. Das heifit, das Spracherkennungs- 
system verfugt iiber ein Set von akustischen Modellen, die im Prinzip sinnvollerweise bei 
einem Sprachsignal vorkommen konnten, Hierbei kann es sich beispielsweise um ein Set 
von Phonemen oder phonemartigen Einheiten, von Diphonen oder Triphonen, bei denen 
30 jeweils das Modell des Phonems vom vorhergehenden und/pder nachfolgenden Phonem 
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innerhalb eines Kontexts abhangt, aber auch von ganzen Worten handeln. Es kann sich 
auch um ein gemischtes Set der verschiedenen akustischen Einheiten handeln. 

Weiterhin werden ein Aussprachelexikon fiir die jeweilige Sprache sowie, um die Erken- 
5 nungsleistung zu verbessern, ggf. verschiedene Wortlexika, stochastische Sprachmodelle 
und Grammatik-Vorgaben der jeweiligen Sprache benotigt, welche bei der Auswahl der in 
Frage kommenden Sequenz von aufeinanderfolgenden Modellen bestimmte, sinnvolle 
Beschrankungen vorgeben. Derartige Beschrankungen verbessern zum einen die Qualitat 
der Erkennung, zum anderen sorgen sie auch fiir eine erhebliche Beschleunigung, da durch 
10 diese Beschrankungen nur bestimmte Kombinationen von Beobachtungsfolgen in Frage 
.'^9^ kommen. 

Eine Methode, akustische Einheiten, d. h. bestimmte Folgen von Beobachtungsvektoren 
zu beschreiben, ist die Verwendung sogenannter „Hidden-Markow-Modelle" (HM- 
15 Modelle). Es handelt sich hierbei um stochastische Signalmodelle, bei denen davon ausge- 
gangeh wird, dass einer Signalfolge eine sogenannte „Markow-Kette" von verschiedenen 
Zustanden zugrunde liegt, wobei zwischen den einzelnen Zustanden bestimmte tJber- 
gangswahrscheinlichkeiten bestehen. Die jeweiligen Zustande selbst sind dabei nicht er- 
kennbar („Hidden") und das Auftreten der tatsachlichen Beobachtungen in den einzelnen 
20 Zustanden wird durch eine Wahrscheinlichkeitsfunktion in Abhangigkeit vom jeweiligen 
Zustand beschrieben. Ein Modell fiir eine bestimmte Sequenz von Beobachtungen kann 
daher in diesem Konzept im wesentlichen durch die Folge der verschiedenen durchlaufen- 
den Zustande, durch die Dauer des Aufenthalts in den jeweiligen Zustanden, die Ober- 
gangswahrscheinlichkeit zwischen den Zustanden sowie die Wahrscheinlichkeit des Auf- 
25 tretens der unterschiedlichen Beobachtungen in den jeweiligen Zustanden beschrieben 
werden. Ein Modell fur ein bestimmtes Phonem wird dabei so erzeugt, dass zunachst 
geeignete Anfangsparameter fiir ein Modell verwendet werden und dann in einem 
sogenannten „Training" dieses Modell durch Veranderung der Parameter so an das zu 
' modellierende Phonem der jeweiligen Sprache angepasst wird, dass ein optimales Modell 
30 gefunden ist. Fiir dieses Training, d. h. die Anpassung der Modelle an die tatsachlichen 
Phoneme einer Sprache, werden ausreichend viele und qualitativ gute Sprachdaten der 
jeweiligen Sprache benotigt. Die Details iiber die verschiedenen HM-Modelle sowie die 
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einzelnen anzupassenden genauen Parameter spielen fiir die vorliegende Erfindung keine , 
wesendiche RoUe und werden daher nicht naher beschrieben. 

Wenn ein Spracherkennungssystem auf der Basis von Phonemmodellen (beispielsweise den 
5 genannten Hidden-Markow-Phonemmodellen) fur cine neue Zielsprache trainiert wird, 
fur die leider nur wenig original Sprach material zur Verfiigung steht, kann Sprach material 
anderer Sprachen zur Unterstutzung des Trainings benutzt werden. So konnen beispiels- 
weise zunachst HM-Modelle in einer anderen, von der Zielsprache verschiedenen Aus- 
gangssprache trainiert werden, und diese Modelle werden dann auf die /neue Sprache als 

10 Ausgangsmodelle transferiert und mit den vorhandenen Sprachdaten der Zielsprache an die 
Zielsprache endgultig adapt iert. Es hat sich inzwischen herausgestellt, dass dabei zunachst 
eine Trainierung von Modellen fiir multilinguale Phonemeinheiten, welche auf mehreren 
Ausgangssprachen basieren, und eine Anpassung dieser multilingualen Phonemeinheiten an 
die Zielsprache, bessere Erfolge liefert, als die Verwendung von nur monolingualen 

15 Modellen einer Ausgangssprache (T. Schultz und A. Waibel in „Language Independent 
and Language Adaptive Large Vocabulary Speech Recognition", Proc. ICSLP, pp. 1819- 
1822, Sidney, Australien 1998). 

Fiir den Transfer wird eine Phonemzuordnung der Phoneme der neuen Zielsprache zu den 
20 Phonemeinheiten der Ausgangssprache bzw. zu den multilingualen Phonemeinheiten be- 
notigt, die der akustischen Ahnlichkeit der respektiven Phoneme bzw, Phonemeinheiten 
Rechnung tragt. Das Problem der Zuordnung der Phoneme der Zielsprache zu den 
Ausgangs- Phonemmodellen ist dabei eng mit dem Problem der Definition der Ausgangs- 
Phonemeinheiten selbst verkniipft, denn nicht nur die Zuordnung zur Zielsprache, 
•25 sondern auch die Definition der Ausgangs- Phonemeinheiten selbst basiert auf akustischer 
Ahnlichkeit. 

Zur Bewertung der akustischer Ahnlichkeit von Phonemen verschiedener Sprachen kann 
grundsatzlich phonetisches Hintergrundwissen verwendet werden. Daher ist im Prinzip 
30 eine Zuordnung der Phoneme der Zielsprache zu den Ausgangs-Phonemeinheiten auf 
Basis dieses Hintergmndwissens moglich. Hierzu ist eine Phonetik-Expertise in den 
beteiligten Sprachen notig. Derartige Expertisen sind jedoch relativ aufwendig. 
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Mangels ausreichender Expertisen wird folglich haufig auf Internationale phonetische Laut- 
schriften, beispielsweise IPA oder SAMPA, zur Zuordnung der Phoneme der Zielsprache 
2u den Ausgangs-Phonemeinheiten zuruckgegrifFen. Diese Art der Zuordnung ist dann 
eindeutig, wenn die Ausgangs-Phonemeinheiten selber eindeutig einem internationaJen 
5 Lautschriftsymbol zuzuordnen sind. Fur die genannten multilingualen Phonemeinheiten 
ist dies jedoch nur gegeben, wenn die Phonemeinheiten der Ausgangssprachen selber auf 
einer Lautschrift basieren. Um ein einfaches zuverlassiges Zuordnungsverfahren zur Ziel- 
sprache zu erhalten, konnten daher die Ausgangs-Phonemeinheiten unter Verwendung von 
Phonemsymbolen einer internationalen Lautschrift definiert werden. Diese Phonemein- 
10 heiten sind jedoch schlechter fur ein Spracherkennungssystem geeignet, als Phonemein- 
heiten, welche mittels statistischer Modelle auf vorhandenen realen Sprachdaten erzeugt 
. wurden. 

Gerade aber fiir solche multilingualen Ausgangs-Phonemeinheiten, welche auf Basis der 
15 Sprachdaten der Ausgangssprachen erzeugt wurden, ist wiederum die Zuordnung mit Hilfe 
einer Lautschrift nicht unbedingt eindeutig. Eine klare phonologische Identitat solcher 
Einheiten ist nicht garantiert. Datum ist eine wissensbasierte Zuordnung von Hand auch 
fiir einen Phonetik-Experten aufierst schwierig. 

20 Im Prinzip besteht die Moglichkeit, die Zuordnung der Phoneme der Zielsprache zu den 
Ausgangs-Phonemmodellen ebenfalls auf Basis von Sprachdaten und deren statistischer 
Modelle automatisch durchzufiihren. Die Qualitat von derartigen sprachdatengetriebenen 
Zuordnungsverfahren hangt jedoch kritisch davon ab, dass geniigend Sprachdaten in der 
Sprache vorliegen, deren Phoneme den Modellen zugeordnet werden soUen. Dies ist aber 

25 gerade fiir die Zielsprache nicht unbedingt gegeben. Es existiert daher leider kein einfaches 
zuverlassiges Zuordnungsverfahren fiir derartige mittels einer sprachdatengetriebene 
Definition erzeugten Phonemeinheiten zur Zielsprache. 

Es ist Aufgabe der vorliegenden Erfindung, eine Alternative zum bekannten Stand der 
30 Technik zu schaffen, mit der eine einfache und zuverlassige Zuordnung von Phonemen 
einer Zielsprache zu beliebigen Ausgangs-Phonemeinheiten, insbesondere auch zu mittels 
einer sprachdatengetriebenen Definition erzeugten, multilingualen Phonemeinheiten, 
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erlaubt. Diese Aufgabe wird durch ein Verfahren gemafi Patentanspruch 1 gelost. 

Fur das erfindungsgemafie Verfahren werden dabei mindestens zwei, wenn moglich sogar 
noch mehrere verschiedene sprachdatengetriebene Zuordnungs verfahren benotigt. Es sollte 
5 sich hierbei um komplementare sprachdatengetriebene Zuordnungsverfahren handeln, die 
jeweils auf voUig unterschiedliche Weise arbeiten. 

Mit diesen verschiedenen sprachdatengetriebenen Zuordnungsverfahren wiird dann fiir 
jedes Phonem der Zielsprache so verfahren, dass das Phonem jeweils einer Ausgangs- 

10 Phonemeinheit zugeordnet wird. Nach diesern Schritt steht also aus jedem sprachdatenge- 
triebenen Verfahren jeweils eine Ausgangs-Phdnemeinheit zur Verfiigung, die dem jewei- 
Hgen Phonenn zugeordnet wurde. Diese Ausgangs-Phonemeinheiten werden verglichen, 
um festzustellen, ob jeweils dieselben Ausgangs-Phonemeinheiten dem Phonem zugeordnet 
wurden. Wenn die Mehrheit der sprachdatengetriebenen Zuordnungsverfahren, ein iiber- 

15 einstimmendes Ergebnis liefert, so wird diese Zuordnung ausgewahlt, d, h. es wird genau 
die Ausgangs- Phonemeinheit dem Phonem zugeordnet, die am haufigsten von den auto- 
matischen sprachdatengetriebenen Verfahren ausgewahlt wurde. Wenn es keine Mehrheit 
der verschiedenen Verfahren gibt, die iibereinstimmende Ergebnisse liefern, beispielsweise 
wenri bei der Verwendung von zwei verschiedenen sprachdatengetriebenen Zuordnungs- 

20 verfahren diese beiden Zuordnungsverfahren den Phonemen jeweils unterschiedliche 

Ausgangs-Phonemeinheiten zugeordnet haben, so wird unter den verschiedenen Zuord- 
nungen genau die Ausgangs- Phonemeinheit ausgewahlt, welche ein bestimmtes Ahnlich- 
keitsmafi gemafi einer symbolphonetischen Beschreibung des zuzuordnenden Phonems 
und der jeweiligen Ausgangs-Phonemeinheiten am besten erfiillt. 

25 

Der Vorteil des erfindungsgemafien Verfahrens ist dabei, dass es eine optimale Ausnutzung 
von Sprachdaten-Material erlaubt, wenn es vorhanden ist (also insbesondere auf Seiten der 
Ausgangssprachen bei der Definition der Ausgangs-Phonemeinheiten), und nur dann auf 
phonetisches bzw. linguistisches Hintergrundwissen zuriickgreift, wenn das Datenmaterial 
30 unzureichend ist, um eine Zuordnung mit hinreichender Konfidenz zu bestimmen. Das 
Konfidenzmafi ist hierbei die Obereinstimmung der Ergebnisse der verschiedenen sprach- 
datengetriebenen Zuordnungsverfahren. Auf diese Weise konnen auch die Vorteile daten- 
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getriebener Definitiohsverfahren fiir multilinguaJe Phonemeinheiten im Transfer zu neuen 
Sprachen ausgenutzt werden. Die Anwendung des erfindungsgemal?e Verfahren ist jedoch 
nicht auf HM-Modelle oder auf multilinguale Ausgangs-Phonemeinheiten beschrankt, 
sondern kann auch bei anderen Modellen und natiirlich auch zur Zuordnung von mono- 
lingualen Phonemen bzw. Phonemeinheiten niitzlich sein. Im folgenden wird aber beispiel- 
haft von einer Verwendung fiir ein Set von mukiHngualen Phonemeinheiten ausgegangen, 
die jeweils durch HM-Modelle beschrieben werden. 

Die wissensbasierte (d. h. auf phohetischem Hintergrundwissen basierende) Zuordnung im 
Falle unzureichender Konfidenz ist besonders einfach, da nur aus einer sehr begrenzten 
Anzahl von moglichen Losungen, die durch die spraehdatengetriebenen Verfahren. bereits 
vorgegeben sind, gewahlt werden muss. Hierbei bietet es sich an, dass das Ahnlichkeitsmafi 
gemafi der symbolphonetischen Beschreibungen Informationen uber die Zuordnung des 
jeweiligen Phonems und die Zuordnung der jeweiligen Ausgangs-Phonemeinheiten zu 
Phonemsymbolen und/oder Phonemklassen einer vorgegebenen, vorzugsweise internatio- 
nalen, Lautschrift, wie SAMPA oder IPA, umfasst. Hierzu wird lediglich eine Lautschrift- 
Reprasentation der Phoneme der beteiligten Sprachen sowie eine Zuordnung der Laut- 
schriftsymbole zu phonetischen Klassen gebraucht. Die Auswahl der jjrichtigen" Zuord- 
nung unter den bereits durch die spraehdatengetriebenen Zuordnungs verfahren ausge- 
wahlten Ausgangs-Phonemeinheiten aufgrund der ireinen Phonemsyrnbol-Obereinstim- 
mung und Phonemklassen-Ubereinstimmung zu dem zuzuordnenden Phonem der Ziel- 
sprache basiert auf einem sehr einfachen Kriterium und benotigt kein linguistisches 
Expertenwissen. Es kann daher problemlos mittels geeigneter Software auf einem belie- 
bigen Rechner realisiert werden, sodass das gesamte eifindungsgemafie Zuordnungsver- 
fahren vorteilhafterweise voUautomatisch durchgefuhn werden kann. 

Fiir die spraehdatengetriebenen Zuordnungsverfahren gibt es verschiedene Moglichkeiten: 

Bei einem ersten spraehdatengetriebenen Zuordnungsverfahren werden zunachst unter 
Verwendung der Sprachdaten Phonemmodelle fiir die einzelnen Phoneme der Zielsprache 
erzeugt, d. h., es werden Modelle auf der Zielsprache unter Verwendung des zur Ver- 
fiigung stehenden Sprachmaterials der Zielsprache trainiert. Anschliefiend wird fiir die 
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erzeugten Modelle jeweils ein DifFerenzmaK zu den verschiedenen Ausgangs-Phonem- 
modellen der entsprechenden Ausgangs-Phonemeinheiten der Ausgangssprachen ermittelt. 
Bei diesem DifFerenzrhafi kann es sich beispielsweise um eine geometrische Distanz inner- 
halb des mehrdimensionalen Parameterraums der anfangs erwahnteh Beobachtungsvekto- 
, ren handeln. Dem Phonem wird dann jeweils genau die Ausgangs-Phonemeinheit zuge- 
ordnet, welche das kleinste DifFerenzmafi aufweist, das heifit, es wird die nachsdiegende 
Ausgangs-Phonemeinheit genommen. 

Bei einem arideren sprachdatengetriebenen Zuordnungsverfahren wird zunachst das zur 
Verfiigung stehende Sprachdaten-Material der Zielsprache, in einer sogenannten Phonem- 
Start- und -Endsegmentierung zerlegt. Dabei werden unter Zuhilfenahme von Phonem- 
modellen einer definierten Lautschrift, beispielsweise SAMPA oder IPA, die Sprachdaten 
in einzelne Phonerne segmentiert. Diese Phoneme der Zielspraiche werden danh in eine 
Spracherkennung eingegeben, welche auf Basis des Sets der zuzuordnenden Ausgangs- 
Phonemeinheiten arbeitet bzw. auf deren Ausgangs-Phonemmodellen basiert. Es werden in 
der Spracherkennung auf iibliche Weise Erkennungswerte fiir die Ausgangs-Phoriem- 
modelle ermittelt, das heifit, es wird festgestellt, mit welch er Wahrscheinlichkeit ein 
bestimmtes Phonem als bestimmte Ausgangs-Phonemeinheit erkannt wird. Jedem Phonem 
wird dann die Ausgangs-Phonemeinheit zugeordnet, fxir deren Ausgangs-Phonemmodell 
am haufigsten die besten Erkennungswerte ermittelt werden. Mit anderen Worten: Es wird 
einem Phonem der Zielsprache genau die Ausgangs-Phonemeinheit zugeordnet, die das 
Spracherkennungssystem am haufigsten bei der Analyse des entsprechenden Zielsprichen- 
Phonems erkannt hat. 

Das erfindungsgemafie Verfahren erlaubt eine relativ schnelle und gute Erzeugung von 
Phonemmodellen fiir Phoneme einer Zielsprache zur Verwendung in automatischen 
Spracherkennungssystemen, indem nach dem genannten Verfahren den Phonemen der 
Zielsprache die Ausgangs-Phonemeinheiten zugeordnet werden, und dann die Phoneme 
jeweils durch die zugehorigen Ausgarigs-Phonemmodelle beschrieben werden, die unter 
Verwendung von umfangreichem vorhandenen Sprachdaten-Material yon verschiedenen 
Ausgangssprachen erzeugt wurden. Fiir jedes Zielsprachen-Phonem wird dabei das 
Ausgangs-Phonemmodell als „Start-Modell" verwendet, welches unter Verwendung des 
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Sprachdaten-Materials schliefilich der Zielsprache angepasst wird. Das erfmdungsgemafie 
Zuordnungsverfahren wird dabei also als Unterverfahren innerhalb des Verfahrens zur 
Erzeugung von Phonemmodellen der Zielsprache verwendet. 

5 Das.gesamte Verfahren zur Erzeugung der Phonemmodelle einschliefilich des erfindungs- 
gemai?en Zuordnungsverfahrens ist vorteilhafterweise durch geeignete Software auf ent- 
sprechend ausgestatteten Rechnern realisierbar. Teilweise kann es aber auch vorteilhaft 
sein, wenn bestimmte Teilroutinen des Verfahrens, wie beispielsweise die Unnwandlung 
der Sprachsignale in Beobachtungsvektoren, in Form von Hardware realisiert werden, um 
10 hohere Prozessgeschwindigkeiten zu erreichen. 

Die so erzeugten Phonemmodelle konnen in einem Set von akustischen Modellen einge- 
setzt werden, welches beispielsweise gemeinsam mit einem Aussprache-Lexikon der jewei- 
ligen Zielsprache zur Verwendung in automatischen Spracherkennungssystemen zur Ver- . 
15 fiigung steht, Bei dem Set von akustischen Modellen kann es sich um ein Set von kontext- 
unabhangigen Phonemmodellen handeln. Selbstverstaridlich kann es sich aber auch um 
Diphon-, Triphon- oder Wortmodelle handeln, die aus den Phonemmodellen zusammen- 
gesetzt sind. Es ist klar, dass derartige aus mehreren Phonen zusaxnmengesetzte akustische 
Modelle in der Regel sprachabhangig sind. 

20 

Die Erfindung wird im Folgenden unter Hinweis auf die Figuren aiih'and eines Aus- 
^g^^ fuhrungsbeispiels naher erlautert. Die nachfolgend dargestellten Merkmale und die bereits 

oben beschriebenen Merkmale konnen nicht nur in den genannten Kombinationen, 
sondern auch einzeln oder in anderen Kombinationen erfindungswesentlich sein. Es stellen 
25 dar: 

Figur 1 einen schematischen Ablauf des erfindungsgemafien Zuordnungsverfahren; 



30 



Figur 2 eine Tabelle eines aus den Ausgangssprachen Franzosisch, Deutsch, Italienisch, 
Portugiesisch und Spanisch gebildeten Sets von 94 multilingualen Ausgangs- 
Phonemeinheiten. 



♦ » • 
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Fiir ein erstes Ausfiihrungsbeispiel wurden zunachst aus fiinf verschiedenen Ausgangs- 
sprachen — Franzosisch, Deutsch, ItaJienisch, Portugiesisch und Spanisch — ein Set. von N 
multilingualen Phonemeinheiten gebildet. Um aus den insgesamt 182 einzelnen sprachab- 
hangigen Phonemen der Ausgangssprachen diese Phonemeinheiten zu bilden, wurden 
5 jeweils akustisch ahnliche Phoneme zusammengefasst und fu-r diese sprachabhangigen 

Phoneme auf Basis des Sprachmaterials der Ausgangssprachen ein gerheinsames Modell, ein 
multilinguales HM-Modell, trainiert. 

Um festzulegen, welche Phoneme der Ausgangssprachen jeweils einander so ahnlicH sind, 
10 ' dass sie sinnvbllerweise eine gemeinsame muitilinguale Phonemeinheit bilden, wurde ein 
sprachdatengetriebenes Verfahren verwendet, 

Dabei wurde zunachst ein Abstandsmafi D zwischen den einzelnen sprachabhangigen 
Phonemen ermittelt. Hierzu wurden fiir die 182 Phoneme der Ausgangssprachen jeweils 
15 kontextunabhangige HM-Modelle mit A''^ -Zustanden prb 'Phonem gebildet. Jeder 

Zusiand eines Phonems wird dabei durch eine Mischung von n Laplace- Wahrscheinlich- 
keitsdichten beschrieben. Jede Dichte j hat hierbei das Mischungsgewicht w j und wird 

reprasentiert durch den Mittelwert der A^^ -Komppnente und die Standardabweichungs- 



vektoren in. und 5^ . Das Abstandsmal? ist dabei definiert als 



wob 



ei 



/-I 1=1 ^-^ k~\ ^ j^k 

' ist. Diese Definition kann als geometrische Distanz verstanden werden. 



25 Die .182 Phoneme der Ausgangssprachen wurden dann mit Hilfe des so definierten 
Anstandsmafies derartig gruppiert, dass die mittlere Distanz zwischen den Phonemen 
desselben multilingualen Phonems moglichst minimal ist. 
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Die Zuordnung erfolgte automatisch mit einem sogenannten „Bottom- Up-Clustering" 
Algorithmus. Dabei werden nach und nach die einzelnen Phoneme zu „Clustern" 
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zusammengesetzt, indem bis zu einem bestimmten Abbruchkriterium immer ein einzelnes 
Phonem dem „nachstliegenden" Cluster hinzugefiigt wird. Unter nachstliegendem Cluster 
ist hierbei der Cluster zu verstehen, fiir den die oben definierte mittlere Distanz minimal 
^ ist, nachdem das einzelne Phonem hinzugefiigt wird. Auf gleiche Weise konnen selbstver- 
5 standlich auch zwei Cluster, welche bereits aus mehferen Phonemen bestehen, zusammen- 
gefiigt werden. 

Durch die Wahl des oben definierten Distanzmafies ist sichergestellt, dass die in dem Ver- 
fahren erzeugten multilingualen Phonemeinheiten unterschiediiche Klassen von ahnlichen 
10 Kiangen beschreiben, da die Distaiiz zwischen den Modellen von der klanglichen Ahnlich- 
keit der Modelle abhangt, 

AIs weiteres Kriterium wurde vorgegeben, dass niemals zwei Phoneme derselben Sprache in 
derselben multilingualen Phonemeinheit venreten sind. Das heifit, bevor ein Phonem einer 

15 bestimmten Atisgangssprache einem bestimmten Cluster als nachstliegenden Cluster zuge- 
ordnet wurde,- wurde zunachst iiberpriift, ob dieser Cluster bereits ein Phonem der jewei- 
iigen. Sprache ehthalt. Wenn dies der Fall ist, wurde in einem nachsten Schritt iiberpriift, 
ob ein Austausch der beiden Phoneme der entsprechenden Sprache zu einer geringeren 
mittleren Distanz innerhalb der Cluster fiihren wiirde. Nur dann wurde ein Austausch 

20 durchgefiihrt, anderenfalls wurde der Cluster unverandert belassen. Eine entsprechende 
Priifiing wurde durchgefiihrt, bevor zwei Cluster miteinander verschmolzen wurden, 
Durch diese zusatzliche einschrankende Bedingiing ist sichergestellt, dass die multilingu- 
alen Phonemeinheiten — wie ja auch die Phoneme der einzelnen Sprachen — definitions- 
gemafi dazu dienen konnen, um zwei Worte einer Sprache voneihander zu unterscheiden. 

25 

Des weiteren wurde ein Abbruchkriterium fiir das Cluster- Verfahren so gewahlt, dass 
keinerlei Klange von weit entfernten phonetischen Klassen im selbeh Cluster vertreten 
sind. 

30 Im Cluster- Verfahren wurde so ein Set von N verschiedenen multilingualen Phonemein- 
heiten erzeugt, wobei N zwischen 182 (der Anzahl der einzelnen sprachabhangigen Phon- 
eme) und 50 ( der maximalen Anzahl der Phoneme in einer der Ausgangssprachen) liegen 
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kann. Im vorliegenden Ausfuhrungsbeispiel wurden N = 94 Phonemeinheiten erzeugt und 
dann das Cluster- Verfahren abgebrochen. 

Figur 2 zeigt eine Tabelle dieses Sets von insgesamt 94 multilingualen Ausgangs-Phonem- 
5 einheiten. In der linken Spalte dieser Tabelle ist jeweils die Anzahl der Phonemeinheiten 
aufgezeigt, die aus einer bestimmten Anzahl von einzelnen Phonemen der Ausgangsspra- 
chen kombinieit sind. In der rechten Spalte sind jeweils die einzelnen Phoneme bzw. 
(durch ein „+" untereinander verbunden) die Gruppen von Ausgangs-Phonemen, welche 
jeweils eine Phonemeinheit bilden, aufgefiihrt. Die einzelnen sprachabhangigen Phoneme 

10 sind hierbei in der internationalen Lautschrift SAMPA dargestellt, wobei der Index die 
jeweilige Sprache aingibt (f = franzosisch, g = deutsch, i = italiehisch, p = portugiesisch, 
s = spanisch). Beispielsweise sind - wie aus der untersten Zeile in der rechten Spalte der 
Tabelle in Figur 2 zu ersehen ist - die Phoneme f, m und s in samtlichen 5 Ausgangs- 
sprachen akustisch untereinander so ahnlich, dass sie eine gemeinsame multilinguale 

15 Phonemeinheit bilden. Insgesamt besteht das Set aus 37 Phonemeinheiten, welche jeweils 
aus nur einem sprachabhangigen Phonem definiert werden, aus 39 Phonemeinheiten, 
welche jeweils aus 2 einzelnen sprachabhangigen Phonemen definiert werden, aus 9 
Phonemeinheiten, welche aus 3 einzelnen sprachabhangigen Phonemen definiert werden, 
aus 5 Phonemeinheiten, welche jeweils aus 4 sprachabhangigen Phonemen definiert 

20 werden, und aus nur 4 Phonemeinheiten, welche aus 5 sprachabhangigen Phonemen defi- 
niert werden. Die maximale Anzahl der einzelnen Phoneme innerhalb einer multilingualen 
Phonemeinheit ist aufgrund der oben erwahnten Bedingung, dass niemals zwei Phoneme 
derselben Sprache in derselben Phonemeinheit vertreten sein diirfen, dilrch die Anzahl der 
beteiligten Sprachen — hier fiinf Sprachen — vorgegeben, 

25 

Fiir den Sprachtransfer dieser multilingualen Phonemeinheiten wird dann das erfindungs- 
gemaEe Verfahren eingesetzt, mit dem die Phoneme der Zielsprachen, in dem vorliegenden 
Ausfiihrungsbeispiel Englisch und Danisch, den multilingualen Phonemeinheiten des in 
Figur 2 dargestellten Sets zugeordnet werden. 

30 

Das erfindungsgemaEe Verfahren ist von dem jeweiligen konkreten Set von Ausgangs- 
Phonemeinheiten unabhangig. Es wird an dieser Stelle ausdriicklich darauf hingewiesen. 
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dass die Gruppierung der einzelnen Phoneme zur Bildung der multilingualen Phoneme 
auch mit einem anderen geeigneten Verfahren durchgefiihrt werden kann. Insbesondere 
kann auch ein ainderes geeignetes Abstandsmafi bzw. Ahnlichkeitsmafi zwischen den 
einzelnen sprachabhangigen Phonemen verwendet werden. 

Das erfindungsgemafie Verfahren ist schematisch im groben tJberblick in Figur 1 darge- 
stellt. Im dargestellten Ausfiihrungsbeispiel stehen genau zwei verschiedene sprachdatenge- 
triebene Zuordnungs verfahren zur Verfugung, die in der Figur 1 als Verfahrensblocke 1, 2 
dargestellt sind. 



Im ersten der beiden sprachdatengetriebenen Zuordnungs verfahren 1 werden unter Ver- 
wendung der Sprachdaten SD der Zielsprache jeweils zunachst HM-Modelle fiir die 
Phoneme Pi, der Zielsprache erzeugt (Im folgenden wird dabei davon ausgegangen, dass die 
Zielspra:che M unterschiedliche Phoneme Pj bis P^^ aufweist). Hierbei handelt es sich 

15 selbstverstandlich um Modelle, die aufgrund des geringen Sprachdaten-Materials der Ziel- 
^ sprache noch relativ schlecht sind. Fiir diese Modelle der Zielsprache wird dann jeweils 
nach den oben beschriebenen Formeln ein Abstand D zu den HM-Ausgangs-Phonem- 
modeilen aller Ausgangs-Phonemeinheiten (PEp PE2, PE^) berechnet, Jedes Phonem 
der Zielsprache Pt, wird dann der Phonemeinheit PEj (PJ zugeordnet, deren Ausgangs- 

20 Phonemmodell den geringsten Abstand zum Phonemmodell des Phonems der Ziel- 
sprache hat. 

Im zweiten der beiden Verfahren werden die ankommenden Sprachdaten SD zunachst in 
einzelne Phoneme segmentiert. Diese sogenannte „Phonem-Start- und — Endsegmen- 

25 tierung" erfolgt mit Hilfe eines Sets von Modellen fiir multilinguale Phoneme die gemafi 
der internationalen Lautschrift SAMPA definiert wurden. Die so erhaltenen segmentierten 
Sprachdaten der Zielsprache durchlaufen dann ein Spracherkennungssystem, welches auf 
Basis des Satzes der zuzuordnenden Phonemeinheiten PEp PE^ arbeitet. Den einzelnen 
durch die Segmentierung entstandenen Phonemen P^ der Zielsprache werden dann genau 

30 die Phonemeinheiten PE| (PJ zugeordnet, die von der Spracherkennung am haufigsten als 
das Phonem Pj^ erkannt werden. 
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In beiden Verfahren gehen also die gleichen Sprachdaten SD und das gleiche Set von 
Phonemeinheiten PEj, PEj^ ein. 

Nach Durchfiihrung dieser beiden sprachdatengetriebenen Zuordnungs verfahren 1, 2 
5 stehen dann fiir jedes Phonem P^ genau zwei zugeordnete Phonemeinheiten P; (P^) und PE| 
(PJ zur Auswahl. Die beiden sprachdatengetriebenen Zuordnungsverfahren 1, 2 konnen 
im iibrigen sowohl zeitUch parallel als auch nacheinander durchgefiihrt werden. 

In einem daraufFolgenden Schritt 3 werden dann fur jedes Phonem Pj, der Zielsprache die 
10 von den beiden Zuordnungsverfahren 1, 2 zugeordneten Phonemeinheiten PE^ (Pj,), PEj 
'■^/K^ (Pk) verglichen. Sind die beiden zugeordneten Phonemeinheiten fiir das jeweilige Phonem 

P(^ identisch, so wird einfach als letztendlich zugeordnete Phonemeinheit PE^ (PJ diese 
gemeinsame Zuordnung angenommen. Anderenfalls findet in einem nachfolgenden Schritt 
4 eine Auswahl unter diesen von den sprachdatengetriebenen automatischen Zuordnungs- 
15 verfahren gefiiridenen Phonemeinheiten PE; (PJ, PE^ (PJ statt. 

Diese Auswahl in Schritt 4 erfolgt auf der Basis von phonetischem Hintergrundwissen, 
wobei ein relativ simples, auf einfache Weise automatisch durchzufiihrendes Kriterium 
verwendet wird. Im einzelnen wird die Auswahl einfach so getrofFen, dass genau die 
20 Phonemeinheit ausgewahlt wird, deren Phonemsymbol bzw; deren Phonemklasse inner- 
halb der internationalen Lautschrift SAMPA mit dem Symbol bzw. der Kiasse des Ziel- 
sprachen-Phonems iibereinstimmt, Hierzu miissen zunachst die Phonemeinheiten den 
SAMPA-Symbolen zugeordnet werden. Dies geschieht unter Ruckgriffauf die Symbole der 
urspriinglichen, sprachabhangigen Phoneme, aus denen sich die jeweilige Phonemeinheit 
25 zusammensetzt. Aufierdem miissen selbstverstandlich auch die Phoneme der Zielsprachen 
den internationalen SAMPA-Symbolen zugeordnet werden. Dies kann jedoch auf relativ 
einfache Weise geschehen, in dem alle Phoneme genau den Symbolen zugeordnet werden, 
die dieses Phonem symbolisieiren oder die sich lediglich durch einen Langenzusatz „:" 
unterscheiden. Lediglich einzelne Einheiten der Zielsprache, fiir die es keine Obereinstim- 
30 mung mit den Symbolen des SAMPA-Alphabets gibt, miissen entsprechend klanglich 
ahnlichen Symbolen zugeordnet werden. Dies kann von Hand oder auch automatisch 
geschehen. 
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Als Ausgangsdaten erhalt man dann aus dem erfindungsgemaSen Zuordnungsverfahren 
eine Folge von Zuordnungen PEz-j (Pj), PE22 (Pi)' PEzm (Pm) Phonemeinheiten zu 
den M moglichen Phonemen der Zielsprache, wpbei Zl, Z2, ZM = 1 bis N sein kann. 
Hierbei kann jede multilinguale Ausgangs-Phonemeinheit im Prinzip mehreren Phonemen 
der Zielsprache zugeordnet sein. 

Um zur Erzeugung des Sets von M Modellen fur die Zielsprachen- Phoneme fur jedes der 
Zielsprachen-Phoneme ein eigenes separates Startmodell zu erhalten, werden in Fallen, in 
denen eine multilinguale Phonemeinheit mehreren {X >l) Zielsprachen- Phonemein- 
heiten zugeordnet ist, das Ausgangs-Phonemmodell der entsprechenden Phonemeinheit 
X ~l -mal neu generiert. AuKerdem werden die Modelle der nicht Vjerwendeten Phonem- 
einheiten sowie Phonemeinheiten, die eine Kontextabhangigkeit zu nicht verwendeten 
Phonemen aufweisen, entfernt. 

Das so erhaltene Start-Set von Phonemmodellen fur die Zielsprache wird mittels einer 
geeigneten Adaptionstechnik angepasst, Hierbei konnen insbesondere die iiblichen Adap- 
tionstechniken wie beispielsweise ein Maximum a Posteriori (MAP) -Verfahren (siehe z, B. 
C.H. Lee und J.L. Gauvain ^Speaker Adaption Based on MAP Estimation of HMM 
Parameters" in Proc. ICASSP, pp. 558-561, 1993) oder ein Maximum Likelyhood Linear 
Regression (MLLR) -Verfahren (siehe z. B. J.C, Leggetter und P.C, Woodland „Maximum 
Likelyhood Linear Regression for Speaker Adaption of Continous Density Hidden 
Markow Modells" in „Computer Speech and Language" (1995) 9, pp. 171-185) verwendet 
werden. Selbstverstandlich konnen auch beliebige andere Adaptionstechniken verwendet 
werden. 

Auf diese Weise konnen erfindungsgemafi auch bei einem nur geringen Umfang der zur 
Verfugung stehenden Sprachdaten in der Zielsprache recht gute Modelle fur eine neue 
Zielsprache erzeugt werden, welche dann wiederum zur Bildung von Sets von akustischen 
Modellen zur Verwendung in Spracherkennungssystemen zur Verfugung stehen. Die 
bisherigen Ergebnisse bei dem oben genannten Ausfiihrungsbeispiel zeigen eine klare 
Uberlegenheit des erfindungsgemafien Verfahrens gegeniiber sowohl rein datenbasierten als 
auch rein lautschriftbasierten Ansatzen fiir die Definition und Zuordnung von Phonem- 
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einheiten. Obwohl nur je 1/2 Minute Sprach material von 30 Sprechern in der Zielsprache 
zur Verfugung standen, konnte in einem Spracherkennungssystem auf Basis der erfin- 
dungsgemafi erzeugten Mbdelle fiir die multilingualen Phonenneinheiten (vor einer Adap- 
tion an die Zielsprache), eine Reduzierung der Wortfehlerrate unn etwa 1/4 gegeniiber den 
herkommlichen Verfahren erreicht werden. 
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patentansprOche 



1. Verfahren zur Zuordnung von Phonemen (PJ einer Zielsprache zu jeweils einer 
Ausgangs-Phonemeinheit (PE^(PJ) eines Sets von Ausgangs-Phonemeinheiten (PEj, PEj,..., 
PE^), welche jeweils durch Ausgangs-Phonemmodelle beschrieben werden, die unter 
Verwendung vorhandener Sprachdaten einer Ausgangssprache erzeugt warden^ 
gekennzeichnet durch folgende Verfahrensschritte: 

Verwendung mindestens zweier verschiedener sprachdatengetriebener 
Zuordnungsverfahren (1,2) zur Zuordnung der Phoneme (PJ der Zielsprache zu 
jeweils einer Ausgangs-Phonemeinheit (PE^CPJ, PE.(PJ) 

Ermittlung, ob das jeweilige Phbnem (PJ von einer Mehrheit der verschiedenen 
sprachdatengetriebenen Zuordnungsverfahren iibereinstimmend derselben Ausgangs- 
Phonemeinheit (PEi(Pt), PEj(PJ) zugeordnet wurde 

Auswahl der von der Mehrheit der sprachdatengetriebenen Zuordnungsverfahren (1, 
2) zugeordneten Ausgangs-Phonemeinheit {PEi(PJ, PEj(PJ) als die dem jeweiligen 
Phonem (PJ zugeordnete Ausgangs-Phonemeinheit (PE^(PJ), sofern eine mehrheitlich 
iibereinstimmende Zuordnung durch die verschiedenen sprachdatengetriebenen 
Zuordnungsverfahren (1, 2) existien, 

oder andernfalls Auswahl einer Ausgangs-Phonemeinheit (PE^(PJ) aus alien Ausgangs- 
. Phonemeinheiten (PE,(Pk), PEj(PJ), die von mindestens einem der verschiedenen 
sprachdatengetriebenen Zuordnungsverfahren (1, 2) dem jeweiligen Phonem (PJ 
zugeordnet wurden, unter Verwendung eines Ahnlichkeitsmafies gemafi einer 
symbolphonetischen Beschreibung des zuzuordnenden Phonems (PJ und der 
Ausgangs-Phonemeinheiten (PEjCPJ, PE.(PJ). 
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2. Veifahren nach Anspruch 1, 

dadurch gekennzeichnet, ^ 
dass zumindest ein Teil der Ausgangs-Phonemeinheiten (PE^, PEj,..., PEj^) multilinguale 
Phonemeinheiten (PE^, PE2, PE^) sind, die aus Sprachdaten verschiedener 
Ausgangssprachen gebildet sind. 

3. Verfahren nach Anspruch 1 oder 2, ; 
dadurch gekennzeichnet. 

dass das Ahnlichkeitsmafi gemaE der symbolphonetischen Beschreibung Informationen 
iiber eine Zuordnung des jeweiUgen Phonems (PJ und iiber eine Zuordnung der 
jeweiligen Ausgangs-Phonemeinheiten (PEi(Pk), PEjCPJ) zu Phonemsymbolen und/oder 
Phonemklassen einer vorgegebenen Lautschrifit (SAMPA) umfasst. 

4. Verfahren nach einem der Anspriiche 1 bis 3, 
dadurch gekennzeichnet, 

dass bei einem der sprachdatengetriebenen Zuordnungsverfahren (1) in einem ersten 
Schritt unter Verwendung von Sprachdaten (SD) der Zielsprache Phonenrmmodelle fiir die 
Phoneme (PJ der Zielsprache erzeugt wird, und dann fiir alle Ausgangs-Phonemeinheiten 
(PEj, PE2,-., PEn) jeweils ein DifFerenzmafi des Ausgangs-Phonemmodells der 
entsprechenden Ausgangs-Phonemeinheit zu den Phonemmodellen der Phoneme (PJ der 
Zielsprache ermittelt wird, und den Phonenien (PJ der Zielsprache jeweils die Ausgangs- 
Phonemeinheit (PEi(Pk)) 

mit dem kleinsten Differenzmafi zugeordnet wird. 
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5. Verfahren nach einem der Anspriiche 1 bis 4, 
dadurch gekennzeichnet. 

dass bei einem der sprachdatengetriebenen Zuordnungsverfahren (2) Sprachdaten (SD) der 
Zielsprache unter Verwendung von Phonemmodellen einer definierten Lautschrift in 
5 einzelne Phoneme (PJ segmentiert werden, und fiir jedes dieser Phoneme (PJ in einem 
Spracherkennungssystem, welches das Set der Ausgangs-Phonemmodelle der 
zuzuordnenden Ausgangs-Phonemeinheiten (PE^, PE2,.-., PE^) umfasst, Erkennungswerte 
fur die Ausgangs-Phonemmodelle ermittelt werden, und jedem Phonem (PJ die Ausgangs- 
Phonemeinheit (PEj(Pk)) zugeordnet wird, fiir deren Ausgangs-Phonemmodell am 
10 haufigsten die besten Erkennungswerte ermittelt warden. 

6. Verfahren zur Erzeugung von Phonemmodellen fiir Phoneme einer Zielspraclie zur 
Verwendung in automatischen Spracherkennungssystemen fur diese Zielsprache, 

bei dem den Phonemen def Zielsprache nach einem Verfahren gemal? einem der 
1 5 vorstehenden Anspriiche Ausgangs-Phonemeinheiten zugeordnet werden, welche jeweils 
durch Ausgangs-Phonernmodelle beschrieben werden, die unter Verwendung vorhajidener 
Sprachdaten einer von der Zielsprache verschiedenen Ausgangssprache erzeugt wurden, 
und bei dem dann fiir jedes Zielsprachen- Phonem das Ausgangs-Phonemmodell der 
zugeordneten Ausgangs-Phonemeinheit unter Verwendung der Sprachdaten der 
20 Zielsprache an die Zielsprache angepasst wird. 

7. Computerprogramm mit Programmcode-Mitteln, um alle Schrine gemafi einem der 
vorstehenden Anspriiche auszufiihren, wenn das Programm auf einem Computer 
ausgefiihrt wird. ^ 

25 / 

8. Computerprogramm mit Programmcode-Mitteln gemafi Anspruch 7, die auf einem 
computerlesbaren Datentrager abgespeichert sind. 




30 
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9- Set von akustischen Modellen zur Verwendung in automatischen 

Spracherkennungssystemeh, umfassend mehrere nach einem Verfahren gemafi Anspruch 6 
erzeugte Phonemmodelle. 

10. Spracherkennungssystem enthaJtend einen Set von akustischen Modellen gemafi 
Anspruch 9. 
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Verfahren zur Zuordnung von Phonemen 

Beschrieben wird ein Verfahren zur Zuordnung von Phonemen (PJ einer Zielsprache zu 
jeweils einer Ausgangs-Phonemeinheit (PEJPJ) eines Sets von Ausgangs-Phonemeinheiten 
(PEj, PE2,..., PE^), welche jev^eils durch Ausgangs-Phonemmodelie beschrieben werden, 
die unter Verwendung vorhandener Sprachdaten einer Ausgangssprache erzeugt wurden. 
' Hierzu werden in einem ersten Verfahrensschritt mindestens zwei verschiedene sprach- 
datengetriebene Zuordnungsverfahren (1,2) zur Zuordnung der Phoneme (PJ der Ziel- 
sprache zu jeweils einer Ausgangs-Phonemeinheit (PEiCPJ, PEj(Pj) verwendet. 
Anschliefiend wird in einem zweiten Schritt ermittelt, ob das jeweilige Phonem (PJ von 
einer Mehrheit der verschiedenen sprachdatengetriebenen Zuordnungsverfahren iiberein- 
stimmend derselben Ausgangs-Phonemeinheit (PE-,(Pk), PE-(PJ) zugeordnet vmrde, Sofern 
eine mehrheitlich iibereinstimmende Zuordnung durch die verschiedenen sprachdatenge- 
triebenen Zuordnungsverfahren (1,2) existiert, wird die von der Mehrheit der sprach- 
datengetriebenen Zuordnungsverfahren (1,2) zugeordneten Ausgangs-Phonemeinheit 
(PEi(PJ, PEj(PJ) als die dem jeweiligen Phonem (PJ zugeordnete Ausgangs-Phonemein- 
heit (PE^(PJ) ausgewahlt. Andernfalls wird aus alien Ausgangs-Phonemeinheiten (PEi(PJ, 
PE^(PJ), die von mindestens einem der verschiedenen sprachdatengetriebenen Zuord- 
nungsverfahren (1, 2) dem jeweiligen Phonem (PJ zugeordnet wurden, eine Ausgangs- 
Phonemeinheit unter Verwendung eines AhnlichkeitsmaCes gemafi einer symbolphone- 
tischen Beschreibung des zuzuordnendeh Phonems (PJ und der Ausgangs-Phonemein- 
heiten (PEi(PJ, PEj(PJ) ausgewahlt. 

Fig. 1 
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1 1-d. 
phoneme 
(37) 


9/, 9„ @p, D,. E:„ U.. Hf. h, U, Lp, 
Op, SSf, Yg, Zi, a-.g, bbj, dg, ddi, e~/. 
e~p. ggi, hp, j~p, kp, Ip, Hi, l~p, 
mmi, ppf, r„ u~p, , w„, y^, y:„ z. 


2 l.-d. 
phonemes 
(39) 

- . 


/ 9\-^ P' ^t*T-i3p, j^+jp, 
L,+LL,^N,+N^. Op+Oi. S^+S/. S.+S^, 
Sp+C^. Tj+ff^, Zp+Z/, ap+a^, a'^/+0'--p, 
t*a*^Pti bi+b,, b„+b/ d«+d^ H 4-rl- 

^p-^^-g^ gp+g/» g^+gi. jt+ji;* js+j/* 
'^t"^g<7» no+nni, Oz+Uo. o:«+o„ o/^r-i-u/^ 
rrj+rr,, ss.+Zp, Up+u/, v/+Vp, Vi+B^, 
vv,+Vp, Wi+w„ x,+R|r, x,4-Rp 


3 l.-d. 
phonemes 
(9) 


@p+@/+6p, a,+a,+a/, jp+Ip+e/. 
o,+Oi+Oy, r^+rp+fi, tp+tf+t„ 
tt<+t/+tp, U5+u,+u:<„ Zi+Zp+Zf 


4 l.-d. pho- 
nemes (5) 


e^+ef+E/+Ep, kki+kp+k/+k,. lp+1,+1,+1,. 
n«+n,+n<,+n/, Pp+p/+p<,+Ps 


5 l.-d.pho- 
nemes(4) 


fi+fs+ffl+f/+fp, is+U+i-g+ip+if, 
m5+mf+mo+m/+m<„ s^+Sp+Sf+sz+Sp 
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